[ECCV 2022] 场景文字端到端识别中的全局到局部注意
本文简要介绍ECCV 2022录用论文“GLASS: Global to Local Attention for Scene-Text Spotting”的主要工作。这篇文章针对场景文字端到端识别任务,提出了一个从全局到局部的注意力模块。这个模块结合了全局特征(从共享的主干网络中提取的特征)和局部特征(从原图中裁剪下来的图片,然后再送入一个识别的主干网络提取的特征)融合到一起再进行识别,极大提升了模型的性能。同时文章还提出了一个新的损失函数来提升模型对旋转文本识别的能力。在多个公开数据集上,该论文提出的模型都取得了很好的效果。论文提出的模型也可以用到现在有的框架上。
图1. 场景文字端到端识别方法总览。(a)两阶段检测识别。一个独立的文本检测器后面跟着一个独立的识别器。两者是单独训练的。(b) 端到端文字识别。检测与识别协同优化。(c)论文提出的模块同时结合了(a)和(b)的优势。特征图使用交错注意进行融合,提高了对缩放和旋转的鲁棒性,以及整体性能。
一、研究背景
二、方法原理简述
图2. 网络整体框架图。
图片输入到主干网络提取特征,然后输入到检测器中,这个检测器是一个基于Rotated Mask RCNN的检测器,先用一个Rrotated RPN来生成一些旋转的一些Pproposal,然后提取RoI特征,然后对这些旋转的Proposal进行一个精调。得到一个精细的旋转框。然后再用这些旋转框进行Rotated RoIAlign提取RoI特征, 生成Mask。然后就到了识别部分。首先检测部分生成的旋转框从主干网络输出的特征中使用Rotated RoIAlign 提取识别部分的RoI特征这部分Global 的特征,然后再用检测部分生成的旋转框从输入的图片中把旋转文本Crop出来,再送入到一个Res34的主干网络中提取特征,这部分就是Local的特征。最后把这两个特征送入到Interleaved Feature Attention进行融合,然后再送入到识别器中。这里使用的识别器是ASTER。下图是图1中GALSS的详细结构。
图3. 全局到局部注意特征融合。
图2中的这个 Local特征是从图片裁剪得到的特征,分辨率高。全局特征
计算角度损失时,使用了文章提的基于正弦函数的Loss来计算。
三、主要实验结果及可视化结果
下面是本文的一些实验结果
四、总结及讨论
参考文献
[1] Ronen R, Tsiper S, Anschel O, et al. GLASS: Global to Local Attention for Scene-Text Spotting[C]. ECCV 2022.
[2] Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]. ECCV 2020.
[3] Liu Y, Shen C, Jin L, et al. Abcnet v2: Adaptive bezier-curve network for real-time end-to-end text spotting[J]. TPAMI, 2021.
原文作者: Roi Ronen, Shahar Tsiper, Oron Anschel, Inbal Lavi, Amir Markovitz, and R. Manmatha.
撰稿:黄明鑫
编排:高 学
审校:连宙辉
发布:金连文
往期精彩内容回顾
[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)
[IEEE TMM 2022] |手写汉字纠错的树结构分析网络
[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)
[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测
[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法
[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)
论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正
ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer
ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯